AWS re:Invent 2024の1日目(現地日付12/2)のアップデートまとめてみた #AWSreInvent
こんちには。
データ事業本部 インテグレーション部 機械学習チームの中村( @nokomoro3 )です。
みなさま、re:Invent 2024楽しんでいますか?
連日アップデートが多すぎて追いきれない!乗り遅れてしまった!
そんな方のために現地日時12/2に発表されたアップデートについて本記事でまとめていきます。
私は現地参加しない「エア」re:Invent勢ですが、本記事が現地参加の方やその他の「エア」参加の方の参考になれば幸いです。
なお、一定のカテゴリにまとめていますが、筆者の主観によりカテゴリ分けを決めてしまっていますので、悪しからずご了承ください。
また先行して速報ブログや、やってみたブログが書いてあるのもについてはそちらを大変参考にさせて頂いております。
それでは、紹介していきます。
(なお過去分は以下から参照くださいませ)
生成AI・機械学習
モデルの重みをAmazon S3からアクセラレータに直接ストリーミングするFast Model Loaderを発表
モデルの重みをAmazon S3からアクセラレータに直接ストリーミングするFast Model Loaderが発表されました。
Fast Model Loaderは従来のロード方法と比較して、大規模なモデルを最大15倍速くロードできます。
例えばLlama 3.1 70Bなどの140GBのメモリを必要とするようなモデルを、わずか1分でml.p4d.24xlargeインスタンスにロードできるようです。
- AWS Blog
- https://aws.amazon.com/blogs/machine-learning/introducing-fast-model-loader-in-sagemaker-inference-accelerate-autoscaling-for-your-large-language-models-llms-part-1/
- https://aws.amazon.com/blogs/machine-learning/introducing-fast-model-loader-in-sagemaker-inference-accelerate-autoscaling-for-your-large-language-models-llms-part-2/
Amazon SageMakerの新しいコンテナキャッシング機能を発表
Amazon SageMakerの新しいコンテナキャッシング機能を発表しました。
これにより新しいモデルコピーをスケールする際のレイテンシが最大56%短縮され、新しいインスタンスにモデルコピーを追加する際のレイテンシが最大30%短縮されます。
この機能はLarge Model Inference(LMI)、TGI、TorchServe、およびNVIDIA Tritonを含む、SageMakerの幅広いディープラーニングコンテナ(DLC)で利用することが可能です。
SageMaker Inferenceの新しいゼロスケール機能を発表
これまでは、SageMaker推論エンドポイントは、トラフィックが少ない、または全くない期間であっても、継続的な可用性を提供するために最小限のインスタンス数を維持していました。
この新機能により、使用されていない期間中にインスタンスをゼロにスケールできるようにエンドポイントを構成することが可能となります。
NVIDIAアクセラレーテッド・コンピューティングとソフトウェア提供により、AI推論ワークロードを高速化する新機能を発表
NVIDIA NIMは、生成AIモデルをデプロイ・管理するためのマイクロサービスフレームワークで、こちらがAWS Marketplaceで利用可能となりました。
それに加え、NVIDIAが開発したLLM、Nemotron-4がSageMaker JumpStartで利用可能となっています。
またNVIDIA製のGPUが搭載されているP5e(H200)およびG6e(L40S)インスタンスがSageMakerで利用できるようになりました。
Bedrockのlatency-optimized inferenceがパブリックプレビューで利用可能
Bedrockのlatency-optimized inferenceがパブリックプレビューとなり、応答時間の短縮と応答性の向上を実現します。
裏側ではTrainium2のような専用AIチップとAmazon Bedrockの高度なソフトウェア最適化が活用されているようです。
この機能は現在、オハイオリージョンのClaude 3.5 HaikuモデルとLlama 3.1の405B、70Bモデルで利用可能です。
本アップデートは以下の「Monday Night Live」でもアナウンスされました。
-
AWS re:Invent 2024 - Monday Night Live with Peter DeSantis - YouTube
-
DevIO
-
What's New
コンテナ・コンピューティング
インスタンスP5enが一般提供開始
東京リージョンには未提供だった P5eのネットワーク強化版のP5enが東京リージョンを含め一部リージョンで一般提供開始されました。
P5eと同様H200を8台搭載し、P5eと比較してCPUとGPU間の通信帯域幅が最大4倍になり、パフォーマンス向上が向上しています。
また、H200を搭載したインスタンスタイプは東京リージョンでは初めてとなっています。
- DevIO
- What's New
- AWS Blog
ネットワーク
VPC LatticeがVPCリソースでTCPサポートを追加
従来のHTTPベースのサービスに加え、TCPベースのリソース(RDSなどのデータベース)も統合管理が可能になりました。
これにより複数のVPC間でのリソース共有がプロトコルを問わず可能となり、ネットワーク管理の複雑さが軽減されます。
その他
AWS OutpostsのSatellite Resiliencyを発表
AWS Outpostsは、AWSのサービスやインフラをオンプレミス環境で利用できるようにするサービスです。
Satellite Resiliencyは、Outpostsとその親AWSリージョン間の地上ネットワーク接続が利用できない場合、低軌道(LEO)衛星接続を介して親リージョンにトラフィックを戻し、事業継続性とデータレジデンシーをサポートします。
- AWS Blog
まとめ
いかがでしたでしょうか。12/02は落ちついた数のアップデートとなりましたね。
明日からはキーノートも始まりますので、これからの発表にも期待が高まります。
本記事がみなさまのお話のネタになれば幸いです。